Large Language Model
大量のデータから学習することで、下流の広範なタスクに対して高い汎化性能を獲得したモデル
巨大化し、複雑なタスクへの応用が可能に
微調整によって人間らしさを学習し始める
基盤モデル:GPT-3, CLIP, DALL-E, MT-NLG, PaLM, Flamingo, Unified-IO, Gato, Parti
scaling law
Transformerの性能は、計算リソース、データセットサイズ、パラメータ数に依存する
ネットワークをどう繋ぐかは些細な話
Chinchilla
特定の計算資源が与えられた時のモデルのパラメータ数と学習データ数を割り出して、さらにその性能が推定できる
マジ??
冷静に考えて、今の言語モデル
1 微調整用、強化学習用、評価用データセットの自動生成
2 万能チューリングマシンをシミュレート可能
3 勾配降下法とインコンテキスト学習は同値
みたいな論文が去年の冬くらいからバシバシ出ててやばいと思う。
AI・潜在空間の衝撃
https://www.youtube.com/watch?v=7ffwRDZRtq4
LLaMA: Open and Efficient Foundation Language Models
LLMがなぜ大事なのか?経営者の視点で考える波の待ち受け方
複数の言語モデルを試したり比較できるPlayground 「OpenPlayground」
実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?
In-Context Instruction Learning (ICIL)
これ僕も気になっている。観測範囲で今のLLMの限界を本当の意味?で指摘した論文や考察を見たことがあまりない
GPT3で次単語予測だけでこれだけ言語を理解できるようになるっていうのは、言語学にもとても大きい示唆になるんじゃないかっていう気がする。
音声ナラティブを聴いているときのヒトECoG活動をGPT-2の応答と比較した研究。
①脳でも次単語予測が行われている
②単語の出現前に不確実性をコードする活動が、出現後にサプライズ(予測誤差)をコードする活動が現れる
③文脈依存の単語埋め込みが行われている
とのこと。
Poe
MathPrompter: a technique that improves LLM performance on mathematical reasoning problems.
LLMs are great at understanding text
open-source ChatGPT alternative is now available
OpenAI APIモデルまとめ
LLMがなぜ完全自動運転に必要なのか
An Overview of Language Models
Nice overview of language models covering recent developments and future directions. It also covers topics like linguistic units, structures, training methods, evaluation, and applications.
"Reliable AI markup Language" Adds Structure, Type & Quality Guarantees to LLMs
-Pydantic-style validation of LLM output
-Enforces structure & type guarantees
-Dialect of XML
When validations fail:
-Re-asks LLM
-Filters outputs
-Or fixes outputs
巨大言語モデルでプロンプトで本文中学習(in-context learning)する際、言語モデル学習データ由来の事前知識を本文中学習で上書きする能力、事前知識に無い抽象的な入出力関係を学習する能力、高次元入力を線形分類する能力は大きいモデルで初めて創発される。
A New LLM Pre-training Paradigm
1) Training objective aligns predictions of
left-to-right LM
&
right-to-left LM
trained in reverse
2) Bidirectional inference enables both to meet in middle
-Outperforms strong baselines in code & lang generation
中国語特化でChatGPT同様にRLHFなどで強化されたモデルが出てきた。すでに人間の好みにかなり近い応答を生成できるようになっているとのこと。
英語圏AI界隈で話されてる哲学概念(ワルイージ効果、ロコのバジリスク、ペーパークリップ最大化AI、ショゴスに仮面)をまとめた解説があった。有難い。
Building A Virtual Machine inside ChatGPT
AIの中にマルチバース
AIのメモリを与えると、万能チューリングモデル
AIによるAIの改善
プロンプトエンジニアリング = 微調整を仮説, 勾配効果
メタラーニングをプロンプトだけで行える可能性
メタバース = AI?
Customizing LLMs:
-Supervised fine-tuning on your tasks
-Self-supervised learning (SSL) on your text
-RL w/ your reward model (RM)
-Filter high-temp outputs w/ RM
-Conditional SSL on RM-scored text
-Prompt w/ context
-Give it access to your tools
-Train (soft) parts of prompts
Potential Massive Labor Market Impact of LLMs
-Researchers assess job tasks based on exposure to GPT capabilities
-80% of U.S. workforce may have 10%+ of their tasks affected
-19% may have 50%+ tasks impacted
-Higher-income jobs are most exposed
LLMがこのようなことができる(もしくはできない)ことを説明する研究は既に多くでていると思います。LLMが次の単語予測タスクを目標とした自己教師あり学習を介して様々な能力を獲得でき、特に言語については言語自体が持つ構造(特に構成性)も利用していること、またin-context learningが自己注意機構を利用したメタ学習によって実現していることがわかっており、諸現象の全てではないですが重要な部分の多くはそれを説明できる材料はでていると思います。逆にhallucinationが起きる原因も検討がついています。もちろん未解決な問題もあります。
いえいえ、ただ言語モデルを使ってそういう実験できるようになってわかってきたのはこの一年、半年の話です。また、実際よくわかってないことも多いです。幻覚については大きく記憶の汚染(破滅的忘却と同じ)と個別の汎化の制御ができてない(ある場合は汎化してよくて、ある場合は汎化すると間違える)ことが問題で、表現方法と記憶の固定方法の両面で改善が必要だと思います。さらにモデルサイズを大きくするだけで解消するか(少なくとも記憶の汚染は防げる)、rlhfでいけるか(少なくとも確信度はあたっているので、わかっていない場合にわかってないと言わせるのはできそう)、記憶の新手法が必要か(疎にするとか)はわかってないです。ただ幻覚は2回聞くと間違っていることに気づくことも多いのでプロンプト改善でもかなりいけそうなきはします
岡野原さんかっけ〜〜
この辺りを詳解したブログか書籍を読みたい。。 "特に言語については言語自体が持つ構造(特に構成性)も利用していること、またin-context learningが自己注意機構を利用したメタ学習によって実現していることがわかっており"
ChatGPTなどのLLMの学習には,人間のフィードバックに基づいて出力を改善していく強化学習プロセス RLHF が含まれている.そのため,これらLLMを人間のフィードバックを学習プロセスに含まない他の言語モデルと同列にして評価することはできない,という批判があった
ところが,昨年末に公開された論文 "Constitutional AI: Harmlessness from AI Feedback" で,人間によるラベル付けや監督なしに,自己改善を通じて有害な出力を回避するAIアシスタントを訓練していく方法を提案された.そして,このAIアシスタントによるフィードバックに基づいて出力を改善していく強化学習プロセス RLAIF が "harmlessness versus helpfulness Elo scores" という指標を使った場合に RLHF よりも優れていることが示された
すべての質問に「わからない」と答えるAIアシスタントは無害だが,もちろんまったく役に立たない.その逆に,すべての質問に対して自信たっぷりに答えるAIアシスタントは有用かもしれないが,ときどき大嘘をつくかもしれない.つまり,AIアシスタントには「有害さ」と「有用さ」という2つの評価軸についてのトレードオフ関係があり,この論文で提案された強化学習プロセスは,むしろ人間によるラベル付けや監督を使わない方が「有害さ」と「有用さ」のバランスが取れたモデルを開発できる可能性を示した
CS324 - Large Language Models
んー、難しい。疑問点が
1.学習データが自然言語言語なのだから、そのように作られたモデルにとってクエリが自然言語なのはベストに見えるけど、実は違ったりする?
2.そもそも学習時に自然言語(文章)じゃない何かを与える形式が良いかも?
と、スコープが推論のみなのか学習まで及ぶのか
ChatGPT 関係で自分が根源的にわかってないのは「クエリが自然言語であることが実は本質的なのか」なんですよね。なんかの部品として使うなら、も少し機械的なクエリを組みたくならんか、と思うのだけど、これは自然言語モデルに対するクエリは自然言語でやるのが実は最も効率的だ、という話なのか
学生はLLMについて何を研究すればいいか?やる事はいくらでもある ①プロンプトの研究。GPT-4だとどういうプロンプトがイケるのか、よーいドンのフロンティアだ ②評価の研究。既存のベンチマークはLLMの性能のブチ上がりについていけてないから新しいベンチマークを作ろう。言語モデルを一般的に評価する方法は未解決の問題 ③人間がLLMをどんなふうに使ってるかの研究 ④LLMの安全性、アラインメントの研究 ⑤インコンテキストラーニングやCoTが機能する理由は解明されてないから研究する ⑥創発能力の研究。何故創発能力が起きるのか?今後どんな創発能力が増えていくか予測できないか?小パラメータモデルにも創発能力を持たせる方法は? →RT
自動的な多段階推論とツール利用を組み合わせることで、few-shot promptingとautomatic CoTを大幅に超える改善ができたとする論文。GitHubもあるので試せそう。
#ChatGPT と非常に興味深い対話を行ったので、みなさんぜひリンク先の文章をお読みください。ちょっと長いですが、最後まで順番にお読みいただくと驚きます。私は驚きました。 LLMを一定以上のFLOPsで事前学習させると下記2つの能力が”創発”するという現象を報告したサーベイ。
- few-shot promptingにおける非連続な精度向上
- 新たなprompting戦略の獲得(例:CoT、instruction tuning)
大規模言語モデルの脅威と驚異
Can LLMs Critique and Iterate on Their Own Outputs?
Self-critiquing models for assisting human evaluators
ChatGPTのプロンプトエンジニアリングはとても「変なもの」。PKSHAと東大・松尾教授が語る
BERT以降の事前学習済みモデルのトレンドと主要モデルを紹介! Part 1 学習方法編
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
A Unified Framework for Learned Sparse Retrieval
Accelerating Learned Sparse Indexes Via Term Impact Decomposition
Personality Traits in Large Language Models
GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り
神サーベイ論文
leaderboard
Salesforce Introduces XGen-7B, A Large Language Model With Longer Context Support
LLM開発
最近のLLM比較
LLM
Transformers
ElMo
BERT
GPT-2
Farseq
RoBERTa
Megatron-LM
Turing-NLG
TS
GPT-3
Scaling Laws
Wu Dao
LaMDA
MT-NLG
Github Copilot
Jurassic
Gopher
InstructGPT
Chinchilla
PaLM
OPT
Godel
YaLM
BLOOM
ChatGPT
GPT4
BARD
Bing Chat
"Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond"
Large Language Models as Markov Chains